Τεχνικές Εξόρυξης Δεδομένων

Κωδικός μαθήματος
DΕΤ608
Μονάδες ECTS
6
Εξάμηνο
Εξάμηνο Ζ
Κατηγορία μαθήματος
Κατεύθυνση
Τεχνολογία και Ψηφιακή Καινοτομία
Περιγραφή μαθήματος
  1. ΠΕΡΙΕΧΟΜΕΝΟ ΜΑΘΗΜΑΤΟΣ

Ο σκοπός των διαλέξεων του μαθήματος «Τεχνικές Εξόρυξης Δεδομένων» θα είναι να διδάξει σε βάθος στατιστικές και υπολογιστικές μεθόδους, με σκοπό οι φοιτητές να μπορούν να εφαρμόσουν σύγχρονες μεθόδους για εξόρυξη και ανάλυση δεδομένων. 

Πιο συγκεκριμένα, αρχικά θα γίνει εκτενής επεξήγηση των βασικών εννοιών του πεδίου, το οποίο μελετά την εξόρυξη και ανάλυση δεδομένων με σκοπό την ανακάλυψη πληροφορίας και ο ρόλος των τεχνολογιών αυτών στην οικονομική επιστήμη. Αρχικά θα γίνει θεωρητική αναφορά στα διάφορα είδη προβλημάτων που σχετίζονται με την ανάλυση δεδομένων, ιδιαίτερα μεγάλου όγκου . Σε δεύτερη φάση, θα παρουσιαστούν αναλυτικά κλασσικές και state-of-the-art μέθοδοι μηχανικής μάθησης καθώς και ο τρόπος που εφαρμόζονται στην πράξη σε διάφορα προβλήματα. Συγκεκριμένα, θα τονιστεί η επεξεργασία τέτοιων δεδομένων με τεχνικές εξόρυξης δεδομένων με στόχο να δειχθεί πως συμβάλλουν σε διαδικασίες λήψης αποφάσεων.

Στο εργαστηριακό κομμάτι του μαθήματος θα γίνει εισαγωγή στη γλώσσα προγραμματισμού Python και συγκεκριμένα θα γίνει παρουσίαση και χρήση διάφορων πακέτων, όπως Pandas για εξόρυξη και ανάλυση δεδομένων.

 

Τίτλος ενότητας

Βιβλιογραφία

Σύνδεσμος παρουσίασης

  1. Εισαγωγή:

    Βασικές Έννοιες Εξόρυξης Δεδομένων, Αποθήκες Δεδομένων, Δεδομένα μεγάλου όγκου (Big Data)

[1], [2], [3]

eclass.uop.gr

  1. Θεωρητικό Υπόβαθρο:

    Εύρεση όμοιων στοιχείων, Μετρικής ομοιότητας και απόστασης, Γράφοι

[1], [2], [3]

eclass.uop.gr

  1. Στατιστική ανάλυση δεδομένων:

    Εισαγωγή στη Στατιστική, Τεστ ελέγχου υποθέσεων, Αντιμετώπιση ελλιπών/ακραίων τιμών

[1], [2], [3]

eclass.uop.gr

  1. Θεωρία Συνόλων:

    Συχνά Στοιχειοσύνολα, Προβλήματα κάλυψης

[1], [2], [3]

eclass.uop.gr

  1. Κατακερματισμός (Hashing):

[1], [2], [3]

eclass.uop.gr

  1. Συσταδοποίηση (Clustering):

    Διαχωριστικοί Αλγόριθμοι (k-means), Ιεραρχικοί Αλγόριθμοι

[1], [2], [3]

eclass.uop.gr

  1. Κατηγοριοποίηση (Classification):

    Προβλήματα κατηγοριοποίησης, Κατηγοριοποιητής K πλησιέστερων γειτόνων, Δέντρα Αποφάσεων

[1], [2], [3]

eclass.uop.gr

  1. Κατηγοριοποίηση (Classification):

    Naive Bayes classifier, 

    Νευρωνικά Δίκτυα (Neural networks)

[1], [2], [3]

eclass.uop.gr

  1. Παλινδόρμηση (Regression):

    Γραμμική Παλινδρόμηση, Λογιστική Παλινδρόμηση, Gradient Descend

[1], [2], [3]

eclass.uop.gr

  1. Μείωση Διάστασης:

     Η «κατάρα της διαστασιμότητας», PCA

[1], [2], [3]

eclass.uop.gr

  1. Μείωση Διάστασης:

    Δειγματοληψία, Επιλογή χαρακτηριστικών

[1], [2], [3]

eclass.uop.gr

  1. Κανόνες Συσχέτισης και Συστήματα προτάσεων:

    Association Rules, Recommendation Systems, Πρόβλημα Netflix – Matrix Factorization

[1], [2], [3]

eclass.uop.gr

  1. Εργαλεία Εξόρυξης Γνώσης:

    Γραφικά εργαλεία (π.χ. RapidMiner), Παραδείγματα εφαρμογών (π.χ. Εξόρυξη Γνώσης από τον Παγκόσμιο Ιστό)

[1], [2], [3]

eclass.uop.gr

Τρόποι αξιολόγησης φοιτητή:

 

Ασκήσεις Εργαστηρίου (10%)

 

Ατομική Εργασία (20%)

 

Τελική εξέταση (70%)

Η αρίθμηση αναφέρεται στην αντίστοιχη εβδομάδα του μαθήματος.

  1. ΔΙΔΑΚΤΙΚΕΣ και ΜΑΘΗΣΙΑΚΕΣ ΜΕΘΟΔΟΙ - ΑΞΙΟΛΟΓΗΣΗ

ΤΡΟΠΟΣ ΠΑΡΑΔΟΣΗΣ.

  • Πρόσωπο με πρόσωπο (Διαλέξεις στην αίθουσα)
  • Παρουσίαση Μελετών Περίπτωσης (case Studies)
  • Παρουσίαση επιστημονικών άρθρων και μελετών που σχετίζονται με το αντικείμενο διδασκαλίας
  • Εκπόνηση εργαστηριακών ασκήσεων σε ΗΥ

ΧΡΗΣΗ ΤΕΧΝΟΛΟΓΙΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ

  • H διδασκαλία των μαθημάτων πραγματοποιείται μέσω 

    Laptop και Video Projector.

  • Η επικοινωνία με τους φοιτητές-τριες πραγματοποιείται μέσω email και μέσω της πλατφόρμας του eclass όπου επίσης γίνεται χρήση του forum για ενημέρωση των φοιτητών-τριων
  • Το εκπαιδευτικό υλικό του μαθήματος (οι διαφάνειες καθώς και σημειώσεις των παραδόσεων) προσφέρονται σε ηλεκτρονική μορφή στους φοιτητές-τριες μέσω της πλατφόρμας του eclass.
  • Χρήση Εργαστηρίου ΗΥ

 

ΟΡΓΑΝΩΣΗ ΔΙΔΑΣΚΑΛΙΑΣ

 

Δραστηριότητα

Φόρτος Εργασίας Εξαμήνου

Διαλέξεις (13 βδομάδες διδασκαλίας με 2 ώρες ανά βδομάδα)

26 ώρες (1,04 ECTS)

Εργαστήριο (13 εβδομάδες με 1 ώρα ανά εβδομάδα)

13 ώρες (0,52 ECTS)

Ασκήσεις – παραδοτέα εργαστηρίου 

26 ώρες (1,04 ECTS)

Ατομική εργασία

30 ώρες (1,2 ECTS)

Αυτοτελής Μελέτη

53 ώρες (2,12 ECTS)

Τελικές εξετάσεις

2 ώρες (0,08 ECTS)

Σύνολο μαθήματος (25 ώρες φόρτου εργασίας ανά πιστωτική μονάδα)

150 ώρες (6 ECTS)

ΑΞΙΟΛΟΓΗΣΗ ΦΟΙΤΗΤΩΝ 

 

 

  1. Αξιολόγηση των εργαστηρικών ασκήσεων (10% της συνολιικής βαθμολογίας)
  2. Aξιολόγηση της Ατομικής Εργασίας με παρουσίαση (20% της συνολικής βαθμολογίας)
  3. Εξετάσεις στο τέλος του εξαμήνου (Ερωτήσεις πολλαπλής επιλογής, Ερωτήσεις Σύντομης Απάντησης & Ανάπτυξης) (70% της συνολικής βαθμολογίας)
  4. ΣΥΝΙΣΤΩΜΕΝΗ-ΒΙΒΛΙΟΓΡΑΦΙΑ

 

  1. Εξόρυξη από Μεγάλα Σύνολα Δεδομένων - 3η Έκδοση, Anand Rajaraman, Jeffrey David Ullman, Jure Leskovec, Κωδ. Εύδοξος 94700707.

  2. Εισαγωγή στην εξόρυξη δεδομένων, 2η Έκδοση, Tan Pang - Ning,Steinbach Michael,Kumar Vipin, Βερύκιος Βασίλειος (επιμέλεια), Κωδ. Εύδοξος  77107675

  3. Εξόρυξη και Ανάλυση Δεδομένων: Βασικές Έννοιες και Αλγόριθμοι, Mohammed J. Zaki, Wagner Meira Jr., Κωδ. Ευδοξος 68386089.

Μαθήματα Εξαμήνου